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摘要 : [目的 /意义 ] 推 进 国 内 科研 数据 管理 体系 的 发 展 ,明确 三 大 研究 内 容 和 数据 知识 库 的 基础 理论 研 
究 。[ 方 法 /过 程 ] 杀 用 实证 研究 方法 ,分 析 对 比 国内 外 科研 数据 管理 的 研究 现状 ,详细 探讨 科研 数据 管理 领域 
的 基础 研究 和 技术 论证 。[ 结果 /结论 ] 明 确 指 出 构建 科研 数据 管理 体系 的 基础 研究 三 大 内 容 , 即 为 科研 活动 周 
期 和 数据 生命 周期 \ 数 据 知识 库 的 理论 框架 和 流程 研究 、 数 据 知识 库 的 技术 论证 。 同 时 提出 管理 体系 的 系统 建 
设 方案 和 机 制 建设 方案 。 
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建立 完整 的 科研 数据 管理 大 框架 .探索 开发 完整 的 数 


ji 据 知识 库 系统 等 ,已 成 为 各 大 高 校 和 科研 机 构 必 须 面 
Pa ne ee a 2 0 本 ,Now 。 对 的 问题 。 这 不 仅仅 关系 到 高 校 和 科研 机 构 自 身 的 战 
etic Re ew。 咯 规 划 , 同 时 也 关系 到 国内 科学 研究 的 有 序 发 展 。 
Media Consortium ) 和 高 校 教育 促进 会 (EDUCAUSE 


Leahing Initiative ) 联合 发 布 的 (地平 线 报告 ) 将 科研 数 
六 理 列 为 高校 图书 馆 未 来 发 展 的 重要 趋势 之 。 2.1 国外 研 突现 
i 美国 高 校 和 科研 机 构 的 数据 管理 服务 在 经 费 投 
Co ege & Research Libraries) 发布 图 书馆 二 大 主 。 从业 资 质 要 求 . 岗 位 设置 .技术 要 求 等 方面 痢 设 轩 
流入 究 总 势 ,排名 第 一 的 便 是 科研 数 据 服务 。 。 了 较 高 的 标准 。 从 学 术 活 动 的 初始 阶段 课题 申请 开 
在 加 由 全 究 、 交 里 字 和 信息 化 护 本 快速 发 展 后 曲 。 始 , 高 校 图 书馆 数据 管理 团队 就 提供 了 典 入 式 的 咨询 
面 对 我 国学 术 活动 日 赵 活 聊 , 各 领域 基础 研究 和 “全 开发 的 DMP Tool ,并 结合 一 系列 图 悄 专 业 八 
应 用 研究 在 很 多 方面 已 经 开始 引领 国际 发 展 的 大 背景 a ee a 
Ta pe 0 
管理 办 法 》 ,正式 要 求 政府 预算 资金 支持 开展 的 科研 活 
动 ,需要 对 科研 数据 进行 合理 的 采集 生产 .加 工整 理 、 和 近 生 理 的 灌 训 模式 ,多 数 珊 校 轩 书 入 科研 数据 管理 
下 站 其 训 和 管理 使用 外 万 这 种 让 辽 太太 和 国务 也。 中 才 会 以 专题 讨论 .讲座 .在 线 学 习 等 方式 ,对 科研 人 
办 公 打 出 台 政 策 的 大 背景 下 ,国内 高 校 科研 数据 管理 。 "过 投 , 以 及 本 以 研究 生 迁 行 数据 罕 养 CData Liler 
服务 却 仍然 停留 在 探讨 论证 的 阶段 ,数据 生命 周期 。 “” 和 守信 数据 生命 周期 (Data Lifecycle) 的 培 V Lo 人 
(Data Lifecycle) 尚未 建立 有 效 的 本 土 化 模型 ,科研 数 。。 要 六 (enny of Wiehigan) 人 人生 全 
据 知识 库 的 基础 论证 和 研发 尚未 起 步 。 如 何 从 基础 论 。 子 者 和 4Akers 等 ”大 重 梳理 了 美国 本 土 八大 丙 校 轩 
书馆 传统 强 校 的 科研 数据 服务 .管理 .评估 传统 机 构 


证 阶段 开始 ,建设 好 科研 数据 管理 的 服务 体系 .建立 本 
识 库 构 建 类 识 库 构建 的 时 间 表 ,如 图 1 所 示 : 
土 化 的 数据 生命 周期 模型 .研究 各 种 科研 活动 的 流程 、 知 时 构建 ,数据 知识 库 构建 的 时 间 表 ,如 图 1 所 未 
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2 图 1 美国 八大 高 校 图 书馆 科研 数据 服务 的 时 间 表 "” 


从 图 1 可 以 看 出 , 康 奈 尔 大 学 图 书馆 早 在 1984 年 
需 始 进行 科研 数据 管理 的 服务 工作 ,而 埃 默 里 大 学 
则 可 199%6 年 开始 。 国 立 卫生 研究 院 (NIH) 于 2003 年 
2 六 26 日 开始 要 求 50 万 美元 以 上 的 科研 项 目 必须 有 
本 天 的 科研 数据 管理 计划 书 和 落实 方案 。 在 那 之 后 ， 
税 链 数据 管理 和 数据 知识 库 开始 迅速 发 展 。2011 年 1 
用 日 ,国家 科学 基金 会 (NSF) 开始 要 求 所 有 的 科研 
基金 申请 书 必须 包含 有 配套 的 科研 数据 管理 办 法 和 执 
i 案 。 在 此 之 后 ,各 大 科研 能 力 较 强 的 高 校 图 书馆 
开 妨 了 数据 管理 的 普及 工作 。 
.S2013 年 2 月 22 日 ,奥巴马 政府 签署 了 一 个 科技 政 
策略 忘 录 , 要 求 所 有 获得 联邦 基金 资助 的 科研 任务 在 
结 生 之 后 的 规定 时 间 内 ,必须 在 开放 存 取 ( Open Ac- 
cess ) 的 机 构 知识 库 或 者 数据 知识 库 上 无 条 件 公开 出 
版 原始 科研 数据 。 在 这 一 政策 落实 之 后 ,所 有 的 联邦 
科研 基金 会 都 陆续 颁布 了 对 科研 数据 管理 的 具体 细 
则 。 紧 接着 ,由 美国 各 大 院 校 和 科研 机 构图 书馆 牵头 ， 
全 方位 启动 了 科研 数据 管理 方面 的 相关 工作 。 具 备 科 
研 能 力 的 学 术 型 图 书馆 率先 推出 了 科研 数据 管理 的 服 
务 和 咨询 ,并 且 在 现 有 的 机 构 知识 库 平台 上 进行 初步 
的 科研 数据 的 存储 和 发 表 , 同 时 通过 馆 际 合作 开展 科 
研 数据 管理 系统 的 开发 工作 。 

在 数据 知识 库 系 统 方面 ,首先 ,最 具 特 色 的 开源 系 
统 有 哈佛 大 学 的 Dataverse 和 北 卡 罗 来 纳 大 学 系统 的 
iRODS; 其 次 ,具有 区 域 独特 性 和 个 性 化 特色 的 数据 知 
识 库 如 普 渡 大 学 的 PURR 加州 大 学 系统 联合 开发 的 
DataONE( 现 版 本 为 Dash ) 、 密 吹 根 大 学 开发 的 专门 针 
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对 社会 人 文科 学 的 ICPSR'" 等 ;第 三 ,也 有 众多 高 校 选 
择 用 传统 的 机 构 知 识 库 DSpace Fedora 等 系统 来 存储 
和 发 表 科研 数据 ;再 者 , 现 有 期 刊 文献 中 尚未 有 所 
涉及 的 最 新 出 现 的 下 一 代 机 构 知 识 库 系 统 Samvera, 涵 
六 了 传统 功能 和 科研 数据 功能 ,由 Fedora 为 后 台 ,加 上 
专门 的 前 台 应 用 Hydra, 并 以 此 为 基础 开发 出 一 系列 的 
各 种 独立 的 多 功能 平台 Avalon .Hyku、Hyrax 等 以 支持 
不 同 数据 文件 格式 。 

2.2 国内 研究 现状 

2018 年 3 月 17 日 ,国务院 办 公 厅 印发 《科学 数据 
管理 办 法 》, 正 式 要 求 政府 预算 资金 支持 开展 的 科研 活 
动 ,需要 对 科研 数据 进行 合理 的 采集 生产 、 加 工整 理 、 
开放 共享 和 管理 使 用 。 现 阶段 ,国内 在 各 层级 科研 
基金 资助 方面 还 没有 数据 管理 方案 和 数据 管理 执行 层 
面 上 的 要 求 。 多 数 国内 高 校 图 书馆 和 科研 机 构 都 较 少 
涉及 到 科研 数据 管理 或 者 数据 管理 咨询 服务 的 领域 。 
目前 ,国内 的 期 刊 文献 探讨 了 国外 高 校 的 数据 管理 理 
念 ,模式 和 系统 的 比较 "”, 并 且 着 重 讨论 了 对 国内 高 
校 发 展 的 启示 ” ,但 在 推广 和 执行 科研 数据 管理 实 
践 方面 进展 不 大 。 各 大 高 校 的 管理 层 和 学 术 团 队 对 科 
研 数据 管理 方面 的 工作 并 没有 很 强 的 支持 力度 ,在 经 
费 投 入 从业 资质 .岗位 设置 .技术 要 求 等 各 方面 都 要 
求 不 高 。 

对 科研 数据 生命 周期 的 研究 ,是 科研 数据 管理 的 
前 期 重点 。 只 有 在 本 土 化 的 基础 上 建立 起 适用 于 国内 
科研 大 环境 的 数据 生命 周期 模型 ,或 者 是 各 个 高 校 针 
对 本 校 的 学 科 特 长 建设 起 来 的 数据 生命 周期 模型 ,对 
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科研 数据 管理 的 服务 工作 和 系统 建设 才 有 针对 性 作 
用 ” 。 数 据 知识 库 的 结构 流程 建立 和 功能 设置 , 亦 是 
根据 科研 数据 生命 周期 来 进行 。 国 内 对 科研 数据 生命 
周期 的 研究 并 不 多 见 , 仅 有 的 期 刊 文献 也 仅 是 停留 在 
对 国外 相关 成 果 的 比较 和 讨论 ,同时 针对 性 地 提出 对 
国内 图 情 方面 相关 建设 的 启示 …“-” ,并 没有 在 学 术 成 
果 方 面体 现 出 一 套 成 熟 的 .适用 于 国内 科研 环境 的 数 
据 生 命 周 期 和 架构 模型 。 

在 数据 知识 库 系统 方面 , 相 较 于 美国 已 经 全 面 普 
及 的 传统 机 构 知 识 库 和 数据 知识 库 结 合 使 用 的 现 
状 ” ,国内 的 高 校对 机 构 知 识 库 和 数据 知识 库 的 总 
体 发 展 水 平 并 不 平衡 ” 。 很 多 大 学 还 没有 建立 起 传 
统 机 构 知 识 库 或 者 数据 知识 库 ,只 有 届 指 可 数 的 大 学 
古 经 建立 起 了 初步 的 数据 知识 库 。 比 如 ,北京 大 学 的 
开辟 研究 数据 平台 \ 复 有 旦 大 学 的 社会 科学 数据 平台 、 香 
港 种 技 大 学 的 DataSpace ,都 使 用 了 美国 的 Dataverse 开 
牛 。 在 知识 库 开发 技术 上 看 ,国内 除了 现 有 的 传 
统 栅 构 知 识 库 ,诸如 中 国 科学 院 国 家 科学 图 书馆 兰州 
分 馆 的 CSpace 和 中 国 知 网 的 CIRP 等 之 外 ,并 没有 本 
北 银 的 数据 知识 库 系统 。 


3 问题 陈述 


CN 美国 学 界 的 知识 库 系 统 功能 和 技术 各 有 所 侧重 ， 
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但 若 有 其 不 足 的 一 面 。Dataverse 是 一 个 同时 具有 前 台 
向 后台 的 完整 Java 应 用 ,但 是 其 现 有 的 前 端 并 未 实现 
真正 的 同 后 端 多 辑 分 离 ,Rest API 设计 也 不 是 最 佳 方 
案子 [客户 化 程度 较 低 ,提供 一 定 的 数据 可 视 化 服务 。 
它 国 优点 是 在 元 数据 配置 方面 的 高 度 个 性 化 操作 , 另 
外 可 以 对 科研 数据 的 不 同 版 本 进行 不 同 阶段 的 存档 备 
份 ,流程 比较 完备 ,尤其 适用 于 地 区 性 的 数据 ,能 较 好 
地 整合 其 他 现 有 的 传统 知识 库 软件 。iRODS 采用 C/C 
+ + 语言 ,主要 针对 超大 型 的 分 布 式 数据 ,处 理 大 数据 
反应 快速 ,常用 于 气象 学 数据 建 模 .生物 核酸 序列 分 析 
等 。 缺 点 是 用 户 界面 不 友好 , 因 其 前 端 应 用 由 某 些 Mi- 
croservice 插件 提供 ,使 得 相应 的 客户 化 和 深度 配置 比 
较 困难 。 

而 在 众多 的 传统 机 构 知识 库 软 件 里 面 , Fedora 比 
适合 用 于 数据 知识 库 的 工具 ,在 处 理 分 布 式 大 数据 
功能 接近 iRODS 的 前 提 下 ,其 最 突出 的 优点 是 有 着 先 
进 完善 的 Rest API 网 络 服务 ,还 有 包括 高 精度 版 本 控 
制 高 速 缓存 支持 多 种 数据 存储 技术 、 可 插 用 多 种 用 
户 安全 识别 系统 .高度 可 扩展 性 架构 等 。 在 用 户 界面 
和 科研 数据 对 接 的 技术 支持 也 远 远 超前 于 以 上 提 及 的 
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iRODS ,支持 更 好 的 可 视 化 功能 ,所 以 针对 Fedora 的 前 
端 应 用 开发 非常 热门 ,能 适用 于 更 广泛 的 学 科 领 域 。 
另外 ,一 个 被 广泛 使 用 的 是 DSpace ,其 前 端 框架 Cocoon 
早已 经 过 时 。 但 是 正在 开发 的 DSpace7 将 采用 全 新 的 
Angular 2/4 来 创建 单 页 应 用 程序 , 配 有 全 新 设计 的 
Rest API 方案。DSpace 的 缺点 在 于 对 有 些 数据 格式 版 
本 不 支持 ,也 不 支持 复合 数据 类 型 ,可 视 化 手段 也 比较 
缺乏 。DSpace 因而 更 适用 于 出 版 的 文献 资料 。 总 之 ， 
不 管 以 上 的 哪 一 种 方式 ,都 是 独立 于 数据 管理 计划 系 
统 之 外 ,没有 和 集 各 功能 为 一 体 的 聚合 式 系 统 。 
综 上 所 述 ,国外 的 数据 知识 库 虽 然 有 较 完善 的 体 
系 , 然 而 并 没有 很 好 地 解决 整体 功能 上 的 聚合 ,只 是 片 
面 地 整合 了 某 些 系统 功能 ,存在 多 个 功能 系统 并 存 但 
无 法 兼容 的 特点 ””。 另 外 , 据 美 国学 者 R，Uzwy- 
shyn 在 2016 年 做 的 调查 发 现 , 虽 然 美 国 已 经 有 74% 研 
究 型 大 学 提供 了 科研 数据 的 系统 平台 , 却 只 有 13% 使 
专门 的 数据 知识 库 平 台 , 其 他 的 高 校 都 是 使 用 传统 
机 构 知 识 库 或 者 网 站 代替 '”” 。 而 国内 高 校 的 科研 数 
据 管理 和 数据 知识 库 尚 在 基础 论证 阶段 ,最 为 基础 的 
数据 生命 周期 模型 还 没 建立 ` 仅 有 的 为 数 不 多 的 数据 
知识 库 采 用 了 美国 的 现 有 技术 ;然而 其 现 有 技术 存在 
技术 短 板 ,语言 模块 特别 是 元 数据 对 国外 学 术 检 索 系 
统 的 发 现 功能 支撑 不 足 。 这 种 现象 不 止 局 限于 国内 ， 
在 一 份 针 对 中 日 韩 三 国 数据 知识 库 的 调查 研究 中 , 韩 
国学 者 S$，Kim 和 W.，Lee 发 现 虽 然 中 日 韩 三 国 知 识 界 
的 数据 知识 库 已 经 占据 了 整个 亚洲 学 术 界 的 42.2% ， 
然而 绝 大 多 数 都 是 传统 意义 上 的 数据 库 框 架 和 机 构 知 
识 库 ( 如 DSpace) 框 架 ”” 。 
国内 图 情 研究 在 现 阶段 需要 对 国际 上 现 有 的 数据 
知识 库 的 架构 和 模型 进行 更 深层 次 的 研究 ,并 结合 国 
内 高 校 研究 人 员 对 科研 数据 管理 的 本 土 化 需求 ,建立 
本 土 化 数据 生命 周期 模型 ,在 此 基础 上 构建 一 套 更 加 
完善 .本 土 化 (例如 :中 文 元 数据 集 本 土 化 ) 和 国际 化 
(例如 :配置 Schema. org 或 者 OAI-PMH 元 数据 协议 以 
便 搜 索引 擎 检索 ) 兼 具 的 数据 管理 模型 和 数据 知识 库 
系统 。 更 加 完善 特 指 利 用 互联 网 技术 融合 科研 周期 和 
数据 生命 周期 的 各 个 阶段 ,包括 初期 的 科研 数据 管理 
方案 系统 .中 期 的 数据 仓库 系统 .以 及 后 期 的 数据 整 
合 、 出 版 引用、 开放 获取 系统 ,同时 能 够 对 接 美国 高 校 
的 科研 数据 发 现 系统 或 者 谷歌 ( Google) 于 2018 年 9 
月 5 日 发 布 的 数据 集 搜 索引 擎 (Google Dataset 
Search ) 。 


| 
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4 研究 内 容 


面 对 这 一 领域 的 研究 现状 ,国内 图 书馆 情报 学 界 
如 果 需 要 在 科研 数据 领域 取得 突破 , 需 从 三 个 主要 方 
面 ( 三 个 阶段 ) 开始 着 手 : 中 细 化 的 科研 活动 周期 和 科 
研 数 据 生 命 周期 模型 ;@ 数 据 知 识 库 的 理论 框架 和 流 
程 ;@ 数 据 知识 库 的 技术 方案 。 
4.1 科研 活动 周期 和 数据 生命 周期 模型 

科研 数据 生命 周期 研究 在 美国 学 界 已 经 由 来 已 
久 ,多 数 美国 研究 图 书馆 协会 (Association of Research 
Libraries ,ARL) 成 员 的 学 术 型 图 书馆 都 根据 本 校 的 学 
科 设 置 而 建立 起 一 个 通用 的 生命 周期 模型 ,用 于 指导 
校内 科研 数据 管理 服务 工作 的 开展 ,同时 用 于 指导 数 
据 知 识 库 的 开发 。 如 图 2 所 示 : 


“各 竺 内 部 发 现 和 外 | | 。 文 件 格 式 更 新 换代 
据 支 持 乐 从 初始 年 代 到 如 
今 的 文件 格式 


数据 
有 


。 从 开放 获取 到 完全 
， 内 部 获取 和 外 部 
现 


小于 
民 


2 科研 数据 生命 周期 通用 模型 


-到 在 图 2 中 可 以 看 出 ,一 个 具有 通用 性 的 数据 生命 
周 贿 模型 包括 4 个 模块 :数据 长 期 监护 保证 了 对 数据 
文件 完整 性 的 长 期 保护 和 对 文件 格式 的 更 新 换代 ; 数 
据 的 获取 权限 , 指 科研 人 员 根 据 科研 活动 周期 和 流程 ， 
相应 的 选择 数据 开放 的 权限 ,方便 校内 外 课题 组 成 员 ， 
或 者 跨 课 题 组 合作 人 员 的 科研 数据 共享 ;数据 安全 指 
数据 图 书馆 员 根 据 不 同 级 别 的 基金 委员 会 或 者 各 层级 
机 构 的 相关 要 求 ,对 数据 集 涉及 到 的 人 和 群 身份 .敏感 信 
息 等 信息 进行 隐藏 处 理 ; 数 据 出 版 则 不 仅 涉及 到 各 层 
级 基金 委员 会 对 科研 数据 的 开放 获取 的 要 求 ,同时 要 
求 配套 的 保证 数据 完整 性 的 监护 元 数据 策略 和 支持 数 
据 外 部 共享 的 发 现 元 数据 策略 。 

对 细 化 学 科 的 科研 活动 流程 机 制 的 研究 以 及 对 科 
研 数据 生命 周期 进行 本 土 化 的 研究 均 为 非常 必要 的 环 
节 , 将 直接 影响 数据 管理 系统 的 框架 构建 和 数据 知识 
库 的 理论 架构 。 通 过 具体 学 科 领 域 的 科研 活动 的 调查 
研究 ,研究 人 员 可 以 建立 起 一 套 或 多 套 科 研 活 动 流 程 
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和 模型 ,基于 有 共通 性 科研 活动 流程 的 学 科 和 有 特定 
流程 的 学 科 , 进 一 步 深 入 了 解 科研 数据 在 科研 活动 流 
程 的 生命 周期 ,从 而 构建 有 适用 性 的 本 土 化 数据 生命 
周期 模型 。 对 这 两 项 内 容 的 研究 ,需要 通过 调查 问卷 
和 访谈 的 形式 ,从 科研 人 员 获 取 第 一 手 的 反馈 ,同时 获 
取 各 学 科 的 实验 数据 格式 信息 。 

4.2 数据 知识 库 的 理论 框架 和 流程 

第 二 阶段 的 研究 内 容 ,是 能 够 充分 研究 国际 上 现 
有 的 数据 知识 库 和 相关 配套 系统 处 理科 研 数据 的 总 体 
流程 ,解构 数据 知识 库 的 总 体 框架 。 进 而 结合 本 土 化 
的 科研 周期 和 科研 数据 生命 周期 模型 ,搭建 数据 知识 
库 系 统 的 结构 框架 和 模型 论证 。 

根据 现 有 国际 上 的 文献 和 实证 案例 ,主要 的 科研 
数据 管理 体系 有 三 大 功能 模块 和 流程 :数据 管理 计划 、 
科研 数据 存储 和 出 版 ,科研 数据 的 长 期 监护 和 整合 利 
用 ( 见 图 3)。 此 体系 能 够 覆盖 科研 数据 的 整体 生命 周 
期 ,然而 目前 国际 上 并 没有 一 个 数据 知识 库 系 统 能 够 
把 三 大 功能 模块 进行 有 效 的 聚合 ,大 部 分 都 是 自 成 
个 独立 的 系统 体系 。 比 如 ,加 州 数字 图 书馆 的 DMP 
Tool 用 于 数据 管理 计划 书 、Dash 用 于 数据 存储 和 出 版 
引用 、Chronopolis 用 于 科研 数据 的 长 期 维护 ;也 有 知识 
库 能 局 部 地 融合 数据 存储 、 引 用 、 出 版 和 长 期 监护 再 利 
用 ,比如 普 渡 大 学 的 PURR 系统 , 唯 独 缺 少 了 数据 管理 
计划 部 分 。 

从 图 3 看 出 ,数据 管理 计划 平台 在 科研 周期 的 开 
端 允许 数据 管理 人 员 衣 人 到 科研 周期 的 前 期 数据 管理 
计划 中 来 。 科 研 人 员 在 平台 系统 注册 之 后 可 以 根据 不 
同学 科 的 需求 调 取 相应 的 数据 管理 计划 模板 ,在 数据 
管理 人 员 的 协助 下 撰写 科研 数据 管理 计划 书 并 提交 审 
核 ,确保 科研 人 员 在 科研 活动 的 初始 阶段 即 有 科研 数 
据 管 理 的 提前 构想 和 布局 。 而 相对 应 学 科 的 数据 管理 
计划 模板 , 则 需要 建立 在 本 土 化 和 各 学 科 的 科研 数据 
生命 周期 模型 的 研究 基础 上 。 

在 数据 仓库 平台 和 保存 整合 平台 ,数据 知识 库 的 
功能 设置 必须 满足 相对 应 的 数据 生命 周期 的 功能 , 允 
许 科研 人 员 和 数据 管理 人 员 在 数据 知识 库 平台 上 协助 
工作 ,完成 数据 的 提交 元 数据 配置 .优化 系统 发 现 、 设 
置 分 享 和 使 用 权限 . 跨 学 科 的 数据 整合 再 利用 、 到 最 后 
的 数据 出 版 和 引用 。 数 据 知 识 库 平台 这 一 系列 的 功能 
建设 ,都 必须 建立 在 前 期 的 科研 数据 生命 周期 的 模型 
研究 之 上 。 如 果 没 有 较为 精准 的 数据 生命 周期 模型 作 
为 理论 支持 ,数据 知识 库 的 流程 和 功能 建设 都 将 无 章 
可 循 。 
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数据 管理 计划 平台 


撰写 数据 
管理 计划 


数据 管理 
人 员 审 核 


=== 
审阅 反馈 


基本 元 数 科研 人 员 | 平台 搜索 
科研 人 员 | 据 配 置 ， | 数据 管理 设置 权限 ‖ 发 现 系统 | 科研 人 员 
提交 数据 | 4 一 | 人 员 咨 询 | 一 一 一 一 > | 分 享 使 


人 台 的 合理 让 人 
|e | 人 | | 台 的 合理 化 和 前 
优化 配置 


咨询 反馈 


供 更 多 的 灵活 性 。 客 户 化 后 的 后 端 平台 将 
nn 
统 ) ,并 提供 多 种 存储 选择 模式 ,建立 以 元 数 
据 为 基础 的 ,快速 的 中 英文 的 全 文 搜索 服 
务 ,并 连接 世界 主流 科研 数据 库 和 数据 集 发 
现 系 统 ( 如 Google Dataset Search ) 以 方便 科 
研 数据 的 发 现 发 表 和 利用 

最 后 需要 解决 的 技术 方案 则 是 用 户 平 
百 台 元 数据 的 优化 策略 。 
用 户 平台 可 以 分 为 三 个 不 同 组 别 的 用 户 :外 


在 的 科研 数据 使 用 者 、 科 研 数 据 管理 人 员 和 
科研 人 员 。 用 户 平 台 将 给 科研 人 员 、 信 息 数 
据 使 用 人 员 以 及 普通 用 户 提供 快捷 方便 的 
单 网 页 应 用 和 移动 应 用 ,以 单 网 页 应 用 和 移 


图 3 ”科研 数据 管理 流程 


4 入 数据 知识 库 的 技术 论证 
在 技术 层面 实现 一 个 完善 的 科研 数据 管理 流程 ， 
话 省 要 遵循 3 个 原则 :GD 充分 认识 和 利用 已 有 的 国内 
人 并 滚 ,选择 最 返 全 合 自己 的 软件 平台 ;@ 在 软件 设 
计 疼 面 注意 功 人 的 解 耦合 ,使 得 各 个 模块 既 积 极 合 
作 扩 互 不 影响 。 任何 一 个 模块 的 客户 化 和 更 新 换 
代 生 尽量 不 会 影响 其 他 模块 的 正常 工作 ;加 软件 产 
品 懂 术 要 跟 上 时 代 的 步 合 ,而 且 在 技术 应 用 层面 要 
种 到 有 所 创新 。 

〇 在 现 有 的 软件 平台 基础 上 ,深入 研究 现 有 数据 知 
识 库 的 原理 技术 ,如 善于 处 理 分 布 式 大 数据 功能 的 Fe- 
dora 和 iRODS 等 开源 技术 .前 后 端 逻辑 达成 一 致 的 
Dataverse .或 者 采用 Angular 2/4 来 创建 单 页 应 用 程序 
并 配 有 全 新 设计 Rest API 的 DSpace 7 版 本 。 在 技术 上 
探索 三 大 系统 功能 模块 的 最 合理 数据 存储 架构 和 科研 
数据 管理 业务 逻辑 在 技术 上 的 实现 和 优化 。 最 后 在 通 
过 充足 的 实证 数据 .理论 和 技术 基础 上 ,构建 一 个 完善 
的 科研 数据 管理 系统 模型 。 

在 最 重要 的 知识 库 后 端 平台 方面 ,需要 在 设计 上 
融合 先进 的 理念 ,诸如 以 关联 数据 (linked data) 和 语义 
网 络 (semantic Web ) 为 导向 的 后 端 平台 。 同 时 后 端 平 
台 也 必须 支持 高 度 客户 化 的 元 数据 格式 和 具有 处 理 任 
何 格式 文件 的 能 力 ,从 而 能 针对 不 同学 科 领 域 制定 相 
应 的 科研 数据 管理 系统 ,在 本 土 化 的 研究 方面 也 可 提 


动 应 用 为 特色 的 数据 知识 库 管理 平台 。 这 
个 前 台 界 面 只 能 通过 设计 良好 的 Rest API 
网 络 服务 交流 ,真正 做 到 前 台 后 端 完 全 分 离 
解 耦 。 


通过 第 一 阶段 对 科研 数据 和 各 学 科 的 科研 人 员 的 
学 术 行 为 进行 问卷 调查 和 访谈 ,深入 了 解 和 掌握 科研 
数据 类 型 格式 、 应 用 范围 .使 用 方法 、 数 据 生命 周期 、 
以 及 科研 人 员 的 研究 方法 。 以 此 为 基础 ,图 情 学 界 和 
业界 的 研究 人 员 方 可 开始 对 数据 知识 库 的 建设 方案 进 
行 细致 规划 。 为 了 有 效 促进 系统 建设 的 进行 ,知识 库 
的 建设 方案 从 整体 上 可 以 分 为 两 步 :系统 建设 方案 和 
机 制 建设 方案 。 
5.1 系统 建设 方案 

以 图 3 为 例 ,流程 图 的 第 一 部 分 为 数据 管理 计划 ， 
应 该 满足 不 同学 科 的 科研 人 员 根 据 学 科 需 求 , 调 取 相 
应 的 计划 书 模板 进行 数据 管理 计划 的 制定 。 数 据 管理 
人 员 对 计划 书 进行 审核 和 反馈 ,帮助 科研 人 员 完 善 类 
据 管理 计划 书 , 才 能 在 科研 活动 中 更 合理 地 管理 科研 
数据 。 在 流程 图 的 第 二 部 分 ,图 书馆 数据 管理 人 员 需 
要 在 数据 库 层 面 建设 一 套 标准 化 的 元 数据 方案 覆盖 各 
个 学 科 , 同时 兼 具 元 数据 元 件 的 可 扩展 性 以 满足 具体 
学 科 的 要 求 。 科 研 人 员 提 交 科 研 数据 并 进行 元 数据 的 
初始 配置 ,数据 管理 人 员 再 进行 后 期 的 标准 化 作业 , 确 
保科 研 数据 能 够 被 搜索 引擎 有 效 检索 ,方便 科研 数据 
被 循环 利用 。 在 流程 图 的 第 三 部 分 ,数据 管理 人 员 对 
科研 数据 进行 长 期 监护 作业 以 确保 科研 数据 的 完整 
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C| INaX IV 富 和 鞍 


性 。 同 时 进行 科研 数据 跨 学 科 整 合 和 确保 互 操 作 性 ， 
对 跨 学 科 的 科研 人 员 提 供 精 准 的 个 性 化 服务 ,帮助 科 
研 人 员 实 现 对 现存 科研 数据 的 跨 学 科 检 索 、 使 用 和 引 
用 。 
5.2 ”机制 建设 方案 

一 个 完善 的 科研 数据 管理 范式 (包括 数据 知识 库 
在 内 ) ,必须 有 相应 的 完整 机 制 进行 配套 ,从 而 更 好 地 
服务 于 校内 或 者 校 际 的 学 术科 人 研 工作 。 具 体 的 机 制 需 
要 遵从 几 个 原则 :中 所 有 提交 进入 数据 知识 库 的 科研 
数据 ,都 必须 有 配套 的 通过 审核 的 数据 管理 计划 。 数 
据 管理 人 员 和 科研 人 员 协 同 贯 彻 落实 数据 管理 计划 。 
@) 在 科研 项 目 进 行 中 和 结束 之 后 ,科研 人 员 可 以 在 系 
统 上 进行 共享 权限 的 更 改 , 以 确保 科研 项 目的 有 序 进 
行 二 在 不 违反 基金 委员 会 规章 制度 或 者 不 违反 相关 机 
你 定 的 前 提 下 ,科研 人 员 可 以 随时 要 求 删除 科研 数 
握 侣 @@ 在 科研 项 目 进 行 中 和 科研 项 目 结束 之 后 ,数据 
了 市 为 原则 ,对 元 数据 进 


吕 申 请 科研 基金 的 同时 ,应 把 相应 的 数据 管理 费用 
3 1 请 当中 。 科 研 数据 管理 系统 亦 因此 而 得 到 


"笔者 通过 介绍 国内 外 学 界 和 业界 在 科研 数据 管理 
镜 域 的 研究 现状 ,分 别 陈述 了 国内 外 科研 数据 管理 体 
系 网 发 展 问题 ,包括 科研 数据 生命 周期 的 研究 和 数据 
库 的 构建 等 方面 的 发 展 不 足 之 处 。 笔 者 明确 指出 
为 (推进 国内 科研 数据 管理 领域 的 发 展 所 需要 面临 的 
三 大 研究 内 容 , 即 为 科研 活动 周期 数据 生命 周期 数据 
知识 库 的 理论 框架 和 流程 研究 .数据 知识 库 的 技术 论 
证 。 通 过 细 化 的 深入 研究 ,掌握 科研 数据 管理 体系 的 
基础 ,进而 系统 的 开展 数据 知识 库 的 开发 和 科研 数据 
管理 的 体系 构建 ,包括 系统 建设 和 机 制 建 设 。 科 研 数 
据 管理 体系 和 数据 知识 库 体 系 的 构建 和 优化 .包括 科 
研 数据 管理 的 服务 体系 的 推广 和 完善 ,都 是 一 个 长 期 
的 且 需 要 多 个 领域 共同 推进 的 过 程 。 本 文 所 提供 的 科 
研 数据 管理 系统 和 体系 构建 ,以 科研 流程 和 数据 生命 
周期 为 切入 点 ,脚踏实地 地 解决 国内 科研 数据 管理 最 
根本 的 问题 ,建立 一 套 符合 国内 科研 环境 和 科研 流程 
的 数据 周期 模型 ,不 仅 为 科研 数据 管理 体系 英 定 基础 ， 
也 是 为 高 校 图 书馆 更 好 地 给 科研 团队 推广 数据 管理 服 
务 葛 定 基础 。 

本 文 同时 结合 国外 现 有 的 技术 特点 ,探索 最 适合 
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开发 面向 国内 的 计算 机 语言 环境 框架 结构 本土 化 流 
程 \ 元 数据 配置 .制度 建设 等 一 系列 从 无 到 有 的 体系 。 
从 根本 上 解决 了 国外 的 科研 数据 知识 管理 系统 的 聚合 
问题 ,兼容 了 数据 管理 计划 阶段 .数据 管理 服务 阶段 、 
数据 管理 存储 阶段 .数据 管理 的 出 版 阶段 和 数据 管理 
的 长 期 监护 阶段 的 管理 体系 。 更 好 地 响应 国务 院 办 公 
厅 对 科研 数据 管理 的 号 召 ,帮助 科研 人 员 更 加 有 序 合 
理 的 计划 ,管理 .循环 利用 和 出 版 科研 数据 。 
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stract: [ Purpose/significance | The paper aims to promote the systematic development of research data manage- 
with an emphasis on the three main aspects of fundamental research and theoretical study. [Method/process| The 
research utilizes empirical study to investigate and discuss the status quo of research data management from both the do- 
mesiic and international perspectives, compares and analyzes in detail regarding the fundamental research and technologi- 


ftameworkk，[ Result/conclusion ] The result concludes three aspects of fundamental research for constructing a system 


of Tesearch data management, including research activities and data lifecycles, systematic workflow and theoretical frame- 


work, and technological demonstration. The conclusion also proposes strategies for system and policy development. 
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网 络 化 演进 ,聚焦 网 络 用 户 的 需求 与 行为 特点 ,以 图 书 情 报 领域 的 发 展 变化 现状 与 趋势 为 视角 ,以 网 络 信息 服务 为 主 


线 ,探讨 图 书 情报 服务 转型 变革 的 总 体 战 略 与 策略 。 该 书 总 结 研究 了 国内 外 网 络 信息 服务 的 研究 成 果 与 应 用 进展 , 比 


较 系 统 地 论述 了 数字 化 网 络 化 环境 下 图 书 情报 服务 需要 致力 于 解决 的 各 方面 主要 问题 。 该 书 内 容 全 面 ,资料 丰富 , 理 
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